Flow-guide synthesis provides a common framework for frame interpolation, where optical flow is typically estimated by a pyramid network, and then leveraged to guide a synthesis network to generate intermediate frames between input frames. In this paper, we present UPR-Net, a novel Unified Pyramid Recurrent Network for frame interpolation. Cast in a flexible pyramid framework, UPR-Net exploits lightweight recurrent modules for both bi-directional flow estimation and intermediate frame synthesis. At each pyramid level, it leverages estimated bi-directional flow to generate forward-warped representations for frame synthesis; across pyramid levels, it enables iterative refinement for both optical flow and intermediate frame. In particular, we show that our iterative synthesis can significantly improve the robustness of frame interpolation on large motion cases. Despite being extremely lightweight (1.7M parameters), UPR-Net achieves excellent performance on a large range of benchmarks. Code will be available soon.
translated by 谷歌翻译
我们为基于运动的视频框架插值提供了一种新颖的简单而有效的算法。现有的基于运动的插值方法通常依赖于预先训练的光流模型或基于U-NET的金字塔网络进行运动估计,该运动估计要么具有较大的模型大小或有限的处理复合物和大型运动案例的容量。在这项工作中,通过仔细整合了中间方向的前射击,轻质特征编码器和相关量为金字塔复发框架,我们得出一个紧凑的模型,以同时估计输入帧之间的双向运动。它的尺寸比PWC-NET小15倍,但可以更可靠,更灵活地处理具有挑战性的运动案例。基于估计的双向运动,我们向前射击输入帧及其上下文特征到中间帧,并采用合成网络来估算扭曲表示的中间帧。我们的方法在广泛的视频框架插值基准测试中实现了出色的性能。代码将很快可用。
translated by 谷歌翻译
基于深度学习的技术为自动图像质量评估(IQA)领域的显着进步做出了贡献。现有的IQA方法旨在根据图像级别(即整个图像)或贴片级(将图像分为多个单元和测量每个图像的质量在图像级别(即整个图像)处的平均意见分数(MOS)来衡量图像的质量修补)。某些应用可能需要评估像素级别(即每个像素的MOS值)处的质量,但是,由于其网络结构而丢失了空间信息,因此在现有技术的情况下不可能评估这是不可能的。本文提出了一种IQA算法,除图像级MOS外,还可以测量像素级的MOS。提出的算法由三个核心部分组成,即:i)本地IQA; ii)感兴趣的区域(ROI)预测; iii)高级功能嵌入。本地IQA部件在像素级或像素MOS上输出MOS - 我们称其为“ PMOS”。 ROI预测部分输出的权重来计算图像级IQA时区域的相对重要性。嵌入零件的高级特征提取高级图像特征,然后将其嵌入到本地IQA部分中。换句话说,提出的算法产生三个输出:代表每个像素的MOS的PMO,来自ROI的权重表示区域的相对重要性,最后是通过PMOS和ROI加权总和获得的图像级MOS值。与现有流行的IQA技术相比,通过使用PMO和ROI权重获得的图像级MOS表现出较高的性能。此外,可视化结果表明,预测的PMO和ROI输出与人类视觉系统(HVS)的一般原理相当一致。
translated by 谷歌翻译
大脑磁共振成像(MRI)扫描的自动分割和体积对于诊断帕金森氏病(PD)和帕金森氏症综合症(P-Plus)至关重要。为了提高诊断性能,我们在大脑分割中采用了深度学习(DL)模型,并将其性能与金标准的非DL方法进行了比较。我们收集了健康对照组(n = 105)和PD患者(n = 105),多个全身性萎缩(n = 132)和渐进性超核麻痹(n = 69)的大脑MRI扫描。 2020.使用金标准的非DL模型FreeSurfer(FS),我们对六个脑结构进行了分割:中脑,PON,CAUDATE,CAUDATE,PUTATATE,pALLIDUM和THIRD CNTRICLE,并将其视为DL模型的注释数据,代表性V -net和unet。计算了分化正常,PD和P-Plus病例的曲线下的骰子分数和面积。每位患者六个大脑结构的V-NET和UNETR的分割时间分别为3.48 +-0.17和48.14 +-0.97 s,比FS(15,735 +-1.07 s)快至少300倍。两种DL模型的骰子得分都足够高(> 0.85),它们的疾病分类AUC优于FS。为了分类正常与P-Plus和PD与多个全身性萎缩(小脑型)的分类,DL模型和FS显示出高于0.8的AUC。 DL显着减少了分析时间,而不会损害大脑分割和差异诊断的性能。我们的发现可能有助于在临床环境中采用DL脑MRI分割并提高大脑研究。
translated by 谷歌翻译